期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 多模态特征的越南语语音识别文本标点恢复
赖华, 孙童, 王文君, 余正涛, 高盛祥, 董凌
《计算机应用》唯一官方网站    2024, 44 (2): 418-423.   DOI: 10.11772/j.issn.1001-9081.2023020231
摘要131)   HTML10)    PDF (3010KB)(58)    收藏

越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
2. BigData2023-P00186 基于多路信息聚合协同解码的单通道语音增强
莫尚斌 王文君 董凌 高盛祥 余正涛